首页> 外文OA文献 >Short Text Hashing Improved by Integrating Multi-Granularity Topics and Tags
【2h】

Short Text Hashing Improved by Integrating Multi-Granularity Topics and Tags

机译:通过集成多粒度主题和方法改进短文本哈希   标签

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Due to computational and storage efficiencies of compact binary codes,hashing has been widely used for large-scale similarity search. Unfortunately,many existing hashing methods based on observed keyword features are noteffective for short texts due to the sparseness and shortness. Recently, someresearchers try to utilize latent topics of certain granularity to preservesemantic similarity in hash codes beyond keyword matching. However, topics ofcertain granularity are not adequate to represent the intrinsic semanticinformation. In this paper, we present a novel unified approach for short textHashing using Multi-granularity Topics and Tags, dubbed HMTT. In particular, wepropose a selection method to choose the optimal multi-granularity topicsdepending on the type of dataset, and design two distinct hashing strategies toincorporate multi-granularity topics. We also propose a simple and effectivemethod to exploit tags to enhance the similarity of related texts. We carry outextensive experiments on one short text dataset as well as on one normal textdataset. The results demonstrate that our approach is effective andsignificantly outperforms baselines on several evaluation metrics.
机译:由于紧凑的二进制代码的计算和存储效率,散列已广泛用于大规模相似性搜索。不幸的是,由于稀疏和简短,许多基于观察到的关键词特征的现有哈希方法对短文本无效。最近,一些研究者试图利用某些粒度的潜在主题来保持哈希码中关键字匹配之外的语义相似性。但是,某些粒度的主题不足以表示固有的语义信息。在本文中,我们提出了一种新的统一方法,即使用称为HMTT的多粒度主题和标签进行短文本哈希处理。特别是,我们提出了一种选择方法来根据数据集的类型选择最佳的多粒度主题,并设计两种不同的散列策略以合并多粒度主题。我们还提出了一种简单有效的方法来利用标签来增强相关文本的相似性。我们对一个短文本数据集以及一个正常文本数据集进行了广泛的实验。结果表明,我们的方法是有效的,并且在多个评估指标上明显优于基线。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号